中转服务 API 价格与实现机制
核对日期:2026-05-13。
1. 结论先行
“中转 API 比官方 API 便宜很多”通常不是单一原因,而是几类完全不同的服务被放在同一个词里:
| 类型 | 是否可能合规 | 为什么看起来便宜 | 核心风险 |
|---|---|---|---|
| 正规 AI Gateway / 聚合器 | 可能合规 | 统一接入、多供应商路由、Batch、缓存、企业折扣、低价模型路由 | 仍需看数据处理、计费透明度和供应商合同 |
| 企业代理 / 云市场转售 | 可能合规 | 批量采购、承诺消费、渠道折扣、统一账单 | 不一定比官方低,更多是采购便利和合规支持 |
| 自建开源模型兼容接口 | 合规取决于模型许可 | 用 vLLM、TGI、Ollama 等提供 OpenAI-compatible API,底层不是官方闭源模型 | 质量、上下文、工具调用和安全能力不等价 |
| 灰产中转站 | 高风险 | 额度套利、订阅拆分、盗刷账号、模型替换、日志变现、短期补贴 | 泄露代码/数据、模型降级、账号封禁、法律和合规风险 |
如果某个中转站宣称“官方同模型、免实名、国内直连、70%-90% 折扣、无限量、零留存”,要默认它不是单纯的技术优化。官方本身确实提供 50% Batch 折扣、缓存折扣、低优先级/弹性处理、企业价等机制,但这些通常不足以稳定支撑“长期低到 1 折”的价格。
2. 官方 API 本身有哪些降价机制
先不要把所有便宜都归因于“黑产”。官方平台已经提供了多种合法降本手段。
2.1 Batch API
OpenAI 官方价格页标明 Batch API 对输入和输出节省 50%,但代价是异步处理,通常适合评测、批量抽取、离线生成、数据清洗,不适合实时对话。
Anthropic Message Batches API 也对标准 API 价格提供 50% 计费,并强调适合不要求立即返回的大批量请求。
Google Gemini API 的付费层包含 Batch API,价格页也展示了 Batch 档位通常低于 Standard 档位。
这解释了为什么某些“离线任务平台”可以比实时官方 API 便宜很多:它们不是拿实时链路硬打折,而是把任务转成异步批处理。
2.2 Prompt / Context Caching
缓存是 Agent 成本差异最大的合法来源之一。
OpenAI 价格页展示了 cached input 的单价显著低于普通 input。例如 GPT-5.5 标准输入为 5.00 美元 / 1M tokens,cached input 为 0.50 美元 / 1M tokens。
Anthropic 的 prompt caching 对 cache read 按基础输入价格的 0.1 倍计费,5 分钟 cache write 是 1.25 倍,1 小时 cache write 是 2 倍。对于 Claude Code、代码仓库分析、长 system prompt、多工具 Agent,缓存命中率高时体感成本会大幅下降。
Gemini 也提供 implicit caching 和 explicit caching。官方文档说明 Gemini 2.5 及更新模型默认启用 implicit caching,explicit caching 可手动启用并提供更确定的成本节省。
2.3 Flex / Priority / Data Residency / 区域路由
官方价格不只有一个档位。OpenAI 价格页展示了 Standard、Batch、Data residency 等处理模式,并说明 Flex processing 用更慢响应和偶发资源不可用换取更低成本。
Anthropic 对数据驻留、云市场、区域/多区域端点有不同价格口径。Google Gemini 价格页也区分 Standard、Batch、Flex、Priority。
因此,一个服务商如果只承诺“低优先级任务更便宜”,可能只是把请求路由到官方的低价处理层;但如果它承诺所有实时高质量请求都长期 1 折,就需要怀疑其他来源。
2.4 企业折扣、承诺消费和云市场
大客户可能通过年度承诺、保底消费、云市场私有报价获得折扣。正规的聚合器或企业代理可能把一部分折扣让给用户,也可能通过统一账单降低采购成本。
但这类折扣通常有合同、发票、DPA、审计、服务条款,不会只靠 Telegram、淘宝、个人收款和一个 base_url 解释清楚。
2.5 低价模型本来就便宜
DeepSeek、Gemini Flash-Lite、Claude Haiku、OpenAI mini/nano 系列和部分开源模型本来就低价。中转服务把“模型族”做成统一入口后,用户容易把便宜模型的价格误解成“顶级官方模型打了巨大折扣”。
例如 DeepSeek 官方价格页在 2026-05-13 显示,deepseek-v4-flash 的 cache hit input 价格远低于多数闭源旗舰模型;deepseek-v4-pro 还存在限时 75% 折扣。这是供应商定价差异,不是中转技术魔法。
3. 合法中转服务是怎么实现的
从工程上看,中转服务并不神秘,本质是一个 LLM Gateway。
3.1 协议兼容:只改 base_url
大部分中转站让用户只改一行:
from openai import OpenAI
client = OpenAI(
api_key="sk-proxy-xxx",
base_url="https://proxy.example.com/v1",
)
网关侧实现 OpenAI-compatible 或 Anthropic-compatible HTTP 接口,再把请求转换到真实上游。LiteLLM 文档明确把统一接口、成本追踪、认证、预算、负载均衡作为 Proxy 能力;vLLM 也可以直接启动 OpenAI-compatible server,让自托管模型用 OpenAI SDK 调用。
3.2 虚拟 Key 与账本
中转服务不会把上游真实 Key 暴露给客户,而是发自己的虚拟 Key。服务端维护:
proxy_key -> tenant_idtenant_id -> budget / rate limit / allowed_modelsmodel_alias -> upstream provider / deploymentrequest_id -> token_usage / cost / latency / status
LiteLLM 的 virtual keys 支持 spend tracking、model access、预算、RPM/TPM 等控制。Cloudflare AI Gateway 也提供 analytics、logging、rate limiting、request retries、model fallback 等能力。
3.3 模型路由
路由器会按价格、延迟、可用性、地域、上下文长度、工具调用支持、数据政策选择上游。
典型策略:
- 同一模型多账号、多 region、多 deployment 负载均衡。
- 上游 429 / 5xx 时 fallback 到备用 provider。
- 低价值请求路由到便宜模型,高价值请求路由到强模型。
- 超长上下文请求路由到长上下文模型。
- 对
tool_choice、JSON mode、vision、audio 等参数做能力匹配。
OpenRouter 文档描述了按 provider 排序、fallback、价格优先、吞吐/延迟优先、ZDR 过滤等能力。Cloudflare Dynamic Routing 也支持条件、配额、预算限制、模型 fallback 和版本回滚。
3.4 缓存与批处理
正规网关会尽量利用合法缓存:
- 对完全相同请求做 response cache。
- 把稳定 system prompt、工具 schema、仓库上下文放在 prompt cache 前缀。
- 把离线任务聚合进 Batch API。
- 对工具结果、RAG 检索结果、网页抓取结果做业务缓存。
Cloudflare AI Gateway 文档说明其缓存可对相同请求直接从 Cloudflare cache 返回,减少上游付费请求。注意这类缓存只适合低风险、非个性化、无敏感输入的场景。
3.5 自托管兼容模型
有些中转服务不是真的转发到官方模型,而是用 vLLM 这类推理服务托管开源模型,然后伪装成 OpenAI-compatible API。这本身可以合法,但必须明确标注底层模型。
问题在于灰产服务可能把“兼容接口”包装成“官方同模型”。技术上你看到的是 /v1/chat/completions,但底层可能是 Qwen、GLM、DeepSeek、Llama 或量化小模型。
4. 灰产中转为什么能低到离谱
根据 ChinaTalk 2026-05-05 对 Claude “transfer station / 中转站”生态的调查,以及 Anthropic 2026-02-23 关于 distillation attacks 的披露,异常低价主要来自以下组合。
4.1 免费额度和优惠套利
灰产上游可能批量注册账号,薅免费额度、教育/创业计划、促销 credit、云市场赠金或地区折扣。单个账号额度不大,但账号池足够大时可以摊薄成本。
这类方式很容易被官方风控识别和封禁,所以服务质量会表现为:时好时坏、频繁换域名、换 Key、换模型名、突然下线。
4.2 订阅拆分
部分服务会把 Claude Max、ChatGPT、Gemini 等面向个人或团队的订阅拆成 API 形式转卖,给每个用户分配 token/hour 或并发额度。
这里的套利点是:订阅是固定月费,而官方 API 是按 token 计费。只要使用模式、并发和限制没有被平台及时识别,中转方就能短期获得价差。
但这通常违反服务条款,也不适合生产系统。订阅产品的速率、上下文、工具、会话状态和 API SLA 也不等价。
4.3 盗刷、盗号和虚假身份
更黑的成本来源是盗刷信用卡、购买被盗账号、批量身份验证、短信平台和 KYC 绕过。Anthropic 披露过工业级蒸馏攻击,涉及约 24,000 个欺诈账号和超过 1,600 万次 exchanges;其中还提到单一代理网络曾同时管理超过 20,000 个欺诈账号。
这类服务的价格可以极低,因为成本最终由被盗账号、被盗信用卡、上游平台和下游用户承担。
4.4 模型替换和“掺水”
用户请求 claude-opus,中转方可以实际转到:
- Claude Sonnet / Haiku
- Gemini Flash / Flash-Lite
- DeepSeek / Qwen / GLM
- 自托管量化模型
- 过期旧模型
由于 API 响应里的 model 字段可以被中转服务重写,普通用户很难仅凭返回字段证明底层模型。只有复杂推理、工具调用、长上下文和固定评测集才能暴露差异。
这也是很多低价站的核心利润来源:按旗舰模型收费,实际消耗小模型成本。
4.5 Token 计费不透明
中转方还可以通过计费层赚钱:
- 夸大 input/output token 数。
- 缓存命中按未缓存价格卖给用户。
- 官方 Batch 50% 成本按实时价格卖给用户。
- 把失败请求、重试请求、工具调用重复计费。
- 用人民币、美元、点数、倍率混合定价,让真实单价不可比较。
如果平台不提供原始 usage、上游发票映射、请求级成本明细,用户无法审计。
4.6 日志变现
最危险的一层是:用户的 prompt、output、tool calls、代码上下文、错误日志和人工修正结果本身就是资产。
对代码 Agent 来说,这些日志可能包含:
- 私有仓库代码。
- API Key、数据库连接串、内部域名。
- 真实 bug、修复方案、测试结果。
- 开发者偏好和业务逻辑。
- Agent 多轮轨迹和高质量 reasoning 样本。
ChinaTalk 的调查指出,日志可能进入训练数据、数据中介、诈骗或勒索链条。这个机制解释了为什么某些中转站可以低到 1 折甚至更低:用户同时是付费客户,也是数据供应方。
4.7 短期补贴和资金盘
还有一类低价不是来自技术,而是获客补贴。服务方先低价吸引开发者充值,积累余额和代理层级,然后涨价、限制提现、封号或直接跑路。
判断标准很简单:如果价格低到不能被官方折扣、缓存、Batch、企业价解释,又没有合同、发票、审计和数据条款,那它大概率需要从别处赚钱。
5. 和官方 API 的真实差异
| 维度 | 官方 API | 正规网关 | 高风险中转站 |
|---|---|---|---|
| 模型真实性 | 最高,可直接从供应商获得 | 取决于合同和路由透明度 | 可能被替换或降级 |
| 数据处理 | 有官方数据政策和企业条款 | 取决于网关 DPA、日志和 BYOK 模式 | 不可验证,常见日志留存 |
| 稳定性 | 受官方 SLA/状态页约束 | 取决于多供应商和自身架构 | 账号池封禁会导致波动 |
| 成本 | 透明,可审计 | 可能有 markup,也可能通过路由降本 | 价格低但计费不可审计 |
| 合规 | 最清晰 | 要审查供应链 | 高风险 |
| 故障定位 | 可直接看官方 request id / status | 需要网关透传和 trace | 很难定位 |
6. 条款红线
官方 API 的“可集成”和“可倒卖”不是一回事。
OpenAI Services Agreement 允许客户把 API 集成进自己的应用并提供给终端用户,但同时限制账号凭证共享、账号访问转售、API Key 买卖/转让、绕过 rate limits 或 usage limits。也就是说,一个 SaaS 产品调用 OpenAI API 服务自己的用户,和把 OpenAI Key 包成低价中转站转卖,是两种不同法律关系。
Anthropic Commercial Terms 也要求客户遵守支持地区、使用政策和身份核验要求,并限制未经明确批准转售服务或使用服务训练竞争模型。
合规中转通常需要至少满足以下条件:
- 有上游授权、reseller / partner / marketplace 合同,或客户自带 Key。
- 能说明终端用户、数据处理者、子处理方和责任边界。
- 不共享、买卖、租借上游账号或 API Key。
- 不绕过地理限制、身份验证、速率限制和安全策略。
- 不把用户日志用于未授权训练、转卖或画像。
7. 如何判断一个中转 API 是否可信
7.1 看价格能否被合法机制解释
可以接受的解释:
- “Batch 异步任务 50% 折扣。”
- “缓存命中部分按 cached input 计费。”
- “低价值请求路由到 Haiku / Flash / mini / DeepSeek。”
- “企业合同折扣,有发票和 DPA。”
- “自托管开源模型,明确不是官方闭源模型。”
高风险说法:
- “官方原版模型,长期 1 折。”
- “免实名、免风控、无限量、不会封。”
- “所有模型一个价。”
- “国内个人收款,无法开票,但企业级安全。”
- “不展示上游 provider、request id、usage 明细。”
7.2 要求可审计证据
生产使用前至少要问:
- 是否支持 BYOK?如果托管 Key,上游是谁?
- 是否能给出供应商合同、授权转售证明或云市场私有报价?
- 是否有 DPA、数据保留期、日志脱敏策略、删除机制?
- 是否支持关闭 prompt/output 日志?
- 是否透传上游 request id、model id、usage token?
- 是否能按租户导出账单和 trace?
- 是否有 SOC 2、ISO 27001 或等价审计?
- 是否有明确的 breach notification 和子处理方列表?
7.3 用评测而不是“感觉像”
模型替换很难靠闲聊识别。建议准备固定评测集:
- 长上下文检索:放入私有 canary 文本,检查引用和定位能力。
- 工具调用:验证 JSON schema、parallel tool calls、错误恢复。
- 复杂代码任务:固定 repo、固定测试、比较成功率。
- 多语言和专业任务:用官方 API 做 baseline。
- 计费对照:同样 prompt 对比 token usage、延迟、输出长度。
不要用“你是谁”“你是不是 Claude”判断模型真实性,这些都能被 system prompt 或响应重写骗过。
7.4 把输入视为会被第三方看到
未知中转站不适合输入:
- 私有源代码和未发布产品方案。
- 客户数据、合同、财务、医疗、法务内容。
- API Key、Token、cookie、数据库连接串。
- 内部接口、日志、漏洞细节。
- 可识别个人信息。
实验阶段也应使用脱敏数据、假密钥、最小权限和单独预算。
8. 工程建议
8.1 生产系统
优先级建议:
- 官方 API 或官方云市场入口。
- 有合同、DPA、审计、BYOK、透明路由的正规 AI Gateway。
- 自建 LiteLLM / Cloudflare AI Gateway / Kong / Envoy 风格网关,自己管理供应商 Key。
- 明确标注模型来源的自托管开源模型。
不要把企业 Agent、代码 Agent、客服 Agent、RAG、内部知识库接入无法审计的低价中转站。
8.2 成本优化
真正可持续的降本路径:
- 分层模型路由:简单任务走便宜模型,复杂任务升级。
- Prompt caching:把稳定上下文放在前缀,提升 cache hit。
- Batch API:离线评测、批量抽取、数据处理异步化。
- 控制上下文:不要把完整历史和完整文档无脑塞给模型。
- 工具结果缓存:搜索、网页抓取、数据库查询做 TTL。
- 成本账本:按
tenant_id / feature / model / request_id记录真实成本。 - 回归评测:以 cost per successful task 而不是 token 单价决策。
8.3 个人测试
如果只是个人探索,低价中转可以当“不可信网络服务”看待:
- 不放真实密钥。
- 不上传私有代码。
- 不绑定主邮箱、主手机号、主支付账号。
- 不长期充值。
- 不把输出用于高风险决策。
- 关键任务用官方 API 复核。
9. 核心判断框架
中转价差 = 官方可用折扣
+ 网关路由优化
+ 企业采购折扣
+ 模型降级/替换
+ 计费不透明
+ 账号/订阅/额度套利
+ 用户数据变现
+ 短期补贴或欺诈
前三项可以合规,后五项是主要风险来源。价格越低,越需要解释它属于哪一项。
10. 参考资料
- OpenAI API Pricing: https://openai.com/api/pricing/
- OpenAI Services Agreement: https://openai.com/policies/services-agreement/
- OpenAI API Key Safety: https://help.openai.com/en/articles/5112595-best-practices-for-api-key-safety
- Anthropic Claude API Pricing: https://docs.anthropic.com/en/docs/about-claude/pricing
- Anthropic Batch Processing: https://docs.anthropic.com/en/docs/build-with-claude/batch-processing
- Anthropic Prompt Caching: https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching
- Anthropic Commercial Terms: https://www.anthropic.com/legal/commercial-terms
- Anthropic, Detecting and preventing distillation attacks, 2026-02-23: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
- Google Gemini API Pricing: https://ai.google.dev/gemini-api/docs/pricing
- Google Gemini Context Caching: https://ai.google.dev/gemini-api/docs/caching
- DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing
- LiteLLM Proxy Quick Start: https://docs.litellm.ai/docs/proxy/quick_start
- LiteLLM Virtual Keys: https://docs.litellm.ai/docs/proxy/virtual_keys
- LiteLLM Routing & Load Balancing: https://docs.litellm.ai/docs/routing
- OpenRouter Provider Routing: https://openrouter.ai/docs/guides/routing/provider-selection
- Cloudflare AI Gateway Overview: https://developers.cloudflare.com/ai-gateway/
- Cloudflare AI Gateway Caching: https://developers.cloudflare.com/ai-gateway/features/caching/
- Cloudflare AI Gateway Dynamic Routing: https://developers.cloudflare.com/ai-gateway/features/dynamic-routing/
- vLLM OpenAI-Compatible Server: https://docs.vllm.ai/en/latest/serving/openai_compatible_server/
- ChinaTalk, How to Buy Cheap Claude Tokens in China, Zilan Qian, 2026-05-05: https://www.chinatalk.media/p/how-to-buy-cheap-claude-tokens-in
- Tom's Hardware 对 ChinaTalk 调查的报道,2026-05-10: https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-grey-market-sells-claude-api-access-at-90-percent-off-through-proxy-networks-that-harvest-user-data